智能论文笔记

Off-Policy Correction For Multi-Agent Reinforcement Learning

Michał Zawalski , Błażej Osiński , Henryk Michalewski , Piotr Miłoś

分类：机器学习 | 人工智能

2021-11-22

多智能体增强学习（Marl）为涉及多个交互代理的问题提供了一个框架。尽管与单智能案例明显相似，但多种子体问题通常仍然努力培训和分析。在这项工作中，我们提出了一种新的策略演员 - 批评算法，它将V-Trace扩展到Marl设置。我们的算法的关键优势是它在多工人设置中的高可扩展性。为此，MA-Trace利用重要的采样作为脱策校正方法，这允许分配计算，没有影响培训质量。此外，我们的算法理论上是接地 - 我们证明了一种保证收敛的定期定理。我们在星际争霸多智能课程中广泛评估算法，是多智能代理算法的标准基准。Ma-Trace在所有任务中实现了高性能，并超过了最先进的结果。

translated by 谷歌翻译

在整个智能城市中放置的相机捕获的相机捕获的图像和视频帧通常会通过网络传输到服务器，以通过深层神经网络处理各种任务。原始图像的传输，即没有任何形式的压缩，需要高带宽，并可能导致拥堵问题和传输延迟。使用有损图像压缩技术的使用可以降低图像的质量，从而导致准确性降解。在本文中，我们分析了应用低空损耗的图像压缩方法对视觉人群计数准确性的影响，并测量带宽降低和获得的准确性之间的权衡。

translated by 谷歌翻译